我们按照用户指定的文本提示,以直观和语义的方式处理视频对象的任务。这是一项具有挑战性的任务,因为结果视频必须满足多个属性:(1)它必须在时间上保持一致并避免抖动或类似的工件,(2)结果的风格必须保留对象的全局语义及其细粒度的全局语义。详细信息,(3)必须遵守用户指定的文本提示。为此,根据两个目标文本,我们的方法在视频中对对象进行了修改。第一个目标文本提示说明了全局语义,第二个目标文本提示提示描述了本地语义。要修改对象的样式,我们利用剪辑的代表力,以在(1)本地目标文本和一组本地风格化视图之间获得相似性得分,以及(2)全局目标文本和一组风格化的全局视图。我们使用预估计的ATLA分解网络以时间一致的方式传播编辑。我们证明,我们的方法可以为各种对象和视频产生一致的样式变化,这些样式遵守目标文本的规范。我们还展示了如何改变目标文本的特异性并使用一组前缀增强文本会导致具有不同细节级别的样式化。在我们的项目网页上给出了完整的结果:https://sloeschcke.github.io/text-driven-stylization-of-video-objects/
translated by 谷歌翻译
最近的工作表明了计算机视觉应用的变压器的潜力。第一图像首先分区,然后将其用作注意机制的输入令牌。由于注意机构的昂贵二次成本,使用大的贴片尺寸,导致粗糙的全局相互作用,或者,替代地,仅在图像的局部区域上施加注意力,以牺牲远程相互作用为代价。在这项工作中,我们提出了一种方法,该方法允许在视觉变压器的早期层上允许粗糙的全局相互作用和细粒局部相互作用。在我们的方法的核心,是应用本地和全球注意层的应用。在本地注意层中,我们对每个补丁及其本地移位进行注意,导致几乎位于本地补丁,这些修补程序不绑定到单个特定位置。然后在全球注意层中使用这些实际的补丁。注意层进入本地和全局对应物的分离允许在贴片的数量中进行低计算成本,同时仍然支持已经在第一层处的数据相关的本地化,而不是其他可视变压器中的静态定位。我们的方法被证明优于基于卷积和变压器的图像分类方法,用于CIFAR10,CIFAR100和Imagenet。代码可在:https://github.com/shellysheynin/locally-sag-transformer。
translated by 谷歌翻译
在这项工作中,我们开发直观的控制,用于编辑3D对象的风格。我们的框架Text2Mesh,通过预测符合目标文本提示的颜色和本地几何细节来体验3D网格。我们考虑使用与学习的神经网络耦合的固定网格输入(内容)进行3D对象的脱信表示,我们使用神经风格现场网络。为了修改样式,我们通过利用剪辑的代表性来获取文本提示(描述样式)和风格化网格之间的相似性分数。Text2Mesh既不需要预先训练的生成模型,也不需要专门的3D网状数据集。它可以处理具有任意属的低质量网格(非歧管,边界等),并且不需要UV参数化。我们展示了我们技术在各种各样的3D网格上综合了符合无数款式的能力。
translated by 谷歌翻译
We wish to automatically predict the "speediness" of moving objects in videos-whether they move faster, at, or slower than their "natural" speed. The core component in our approach is SpeedNet-a novel deep network trained to detect if a video is playing at normal rate, or if it is sped up. SpeedNet is trained on a large corpus of natural videos in a self-supervised manner, without requiring any manual annotations. We show how this single, binary classification network can be used to detect arbitrary rates of speediness of objects. We demonstrate prediction results by Speed-Net on a wide range of videos containing complex natural motions, and examine the visual cues it utilizes for making those predictions. Importantly, we show that through predicting the speed of videos, the model learns a powerful and meaningful space-time representation that goes beyond simple motion cues. We demonstrate how those learned features can boost the performance of self-supervised action recognition, and can be used for video retrieval. Furthermore, we also apply SpeedNet for generating time-varying, adaptive video speedups, which can allow viewers to watch videos faster, but with less of the jittery, unnatural motions typical to videos that are sped up uniformly.
translated by 谷歌翻译